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摘要 : 

己 有 大 量 研究 使 用 系列 决策 任务 探讨 了 各 类 决策 的 决策 策略 。 通 过 假定 个 体 采用 单一 策 
略 完成 所 有 任务 试 次 , 并 比较 对 应 的 计算 认 知 模型 拟 合 实证 数据 的 能 力 , 这 些 研究 发 现 各 种 
决策 任务 都 涉及 多 种 可 能 的 决策 策略 。 但 是 , 此 类 研究 的 一 个 共同 缺陷 在 于 忽视 了 个 体 在 任 
务 过 程 中 转换 决策 策略 的 可 能 性 .通过 开发 允许 在 强化 学 习 策 略 和 局 发 式 策略 间 转 换 的 针对 
爱 荷 华 赌博 任务 的 计算 认 知 模型 , 并 将 此 类 模型 同 单一 策略 模型 进行 对 比 , 研究 1 提供 了 个 
体 在 该 系列 决策 任务 中 会 改变 决策 策略 的 明确 证 据 。 研 究 2 则 发 现 ， 随 着 试 次 数 的 增加 ， 发 
生 集 略 转 换 的 可 能 性 也 会 上 升 。 这些 结 果 表明 ,为 了 正确 认识 各 种 决策 任务 的 决策 策略 ， 需 
要 充分 考虑 在 系列 决策 任务 过 程 中 发 生 策略 转换 的 可 能 性 , 尤其 是 试 次 较 多 的 系列 任务 。 未 
来 研究 可 以 探讨 策略 转换 的 多 种 可 能 形式 ， 以 及 导致 策略 转换 的 任务 和 个 体 因素 ， 以 便 进 
步 深化 对 于 系列 决策 任务 的 心理 机 制 的 认识 。 
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Abstract: 

Much research has been devoted to studying decision strategies in various 
tasks. Such research usually involved a sequence of decision trials under the 
same task structure to provide sufficient information for inferring the 
underlying decision strategies. By assuming each individual adopted a single 


decision strategy across all decision trials and comparing corresponding 


computational cognitive models in terms of their performances in fitting 
empirical data, such studies have revealed multiple possible decision strategies 
for many major decision tasks. One common drawback of such research, however, 
was overlooking the possibility that individuals switched their strategies along 
the sequence of decisions. This might lead to inappropriate conclusions regarding 
the decision strategies underlying specific decision tasks or misleading 


inferences of potential cognitive and affective differences between normal and 
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different clinical populations based on parameter estimates from models assuming 
single strategies 

To address this critical issue, two studies were conducted to examine the 
possibility of strategy switching in the Iowa Gambling Task (IGT), an experience- 
based decision task with a sequence of trials aimed at mimicking real-world 
decisions under uncertainty. By developing a computational cognitive model that 
allowed for switches between reinforcement learning strategies and heuristic 
strategies and comparing its performance with those of single-strategy models, 
Study 1 showed that data from about half of the 617 healthy participants in 10 
previous studies were better fitted by the strategy-switching model than three 
single-strategy models that performed well in previous research, that is, the 
WSLS, PVL2, and VPP models as exemplar models assuming heuristic, reinforcement 
learning, and mixed strategies, respectively. This result provided clear support 
for the possibility of strategy switching in the IGT. 

Since strategy switching might occur with accumulating experience or fatigue 
and an increasing number of trials is likely to facilitate such changes, 321 
participants were recruited in Study 2 to further examine whether a larger number 
of trials would contribute to more strategy switching in the IGT. Specifically, 
160 participants performed a 100-trial IGT, whereas the other 161 participants 
performed a 200-trial IGT under otherwise the same task structure. It was found 
that data from a larger proportion of individual participants were best fitted 
by the strategy-switching model when the IGT involved 200 trials rather than 
standard 100 trials. This result provided further evidence for strategy switching 
in the task. 

Overall, the current results suggest that strategy switching is likely to 
occur in a sequence of decisions under the same task structure. Consequently, in 
order to obtain proper understanding of the decision strategies for various 
decision tasks, it is necessary to consider seriously the possibility of strategy 
switching, especially for a long sequence of decisions. For a more refined 
understanding of psychological mechanisms underlying sequences of decisions, 
future research might further investigate various forms of strategy switching 
such as gradual instead of abrupt switches and task and individual factors that 
trigger such switches 
Keywords: Decision task with a sequence of trials, The Iowa Gambling Task, 
Strategy switching, Computational cognitive modeling, Reinforcement learning and 


heuristic strategies 


1 引言 


古人 云 “ 明 者 因 时 而 变 , 知 者 随 事 而 制 ”， 当 重复 面 对 任 务 结构 相同 的 决策 
( 即 完成 系列 决策 任务 ) 时 ， 人 们 所 使 用 的 决策 策略 不 是 一 成 不 变 的 。 大 量 研究 


本 文 探 讨 的 系列 决策 任务 有 别 于 序列 决策 任务 ， 后 者 一 般 是 指 后 续 决 策 的 方案 集合 取决 于 之 前 的 决策 
及 其 结果 ， 即 时 间 上 相 邻 的 决策 存在 明显 的 动态 依存 性 的 决策 任务 。 


表明 ， 各 种 决策 任务 都 存在 多 种 不 同 的 决策 策略 。 例 如 ， 人 针对 多 属性 决策 任务 ， 
存在 一 系列 不 同 的 补偿 式 〈 选 项 在 不 同属 性 上 的 优势 和 劣势 可 以 相互 抵消 ) 和 非 
补偿 式 策 略 〈 选 项 在 不 同属 性 上 的 优势 和 劣势 不 可 相互 抵消 ， 例 如 ， Payne et 
al., 1988; Rieskamp & Otto, 2006; Walsh & Gluck, 2016), ， 而 面 对 风 险 决 策 
任务 时 ， 个 体 则 可 能 采取 基于 期 望 效用 或 类 似 评估 的 策略 〈 例 如 ， Kahneman & 
Tversky, 1979; Von Neumann & Morgenstern, 1944) 或 者 更 为 简单 的 启发 式 
策略 (例如 ，Brandstatter et al.，2006) 。 此 外 ， 研 究 者 还 对 信息 环境 、 任 务 
要 求 以 及 个 体 差 异 等 因素 如 何 影响 个 体 的 策略 选择 进行 了 探索 〈 例 如 ，Bergert 
& Nosofsky, 2007; Pachur & Galesic，2013) ， 并 且 发 现 ， 任 务 环境 或 者 要 求 
的 变化 可 能 会 带 来 相应 的 决策 策略 的 转换 〈 例 如 ，Broder & Schiffer, 2006; 
Lee et al., 2014). 

除了 由 任务 环境 和 要 求 的 变化 所 导致 的 策略 转换 以 外 , 人 们 是 否 还 可 能 在 相 
对 稳定 的 任务 环境 和 要 求 下 , 由 于 自我 调整 、 适 应 或 者 内 在 的 探索 动机 而 发 生 策 
略 转换 ? 在 绝 大 多 数 有 关 决 策 策略 的 实证 研究 中 , 被 试 都 需要 在 相同 的 任务 结构 
下 完成 一 系列 决策 试 次 ,以 便 研究 者 能 够 依托 足够 多 的 信息 ,来 推断 被 试 的 决策 
策略 。 虽然 过 往 研 究 已 经 探讨 了 面 对 特 定 决 策 任务 时 个 体 所 使 用 的 策略 的 多 样 性 ， 
以 及 影响 策略 选择 的 可 能 因素 ， 却 鲜 有 研究 考察 , 在 面 对 一 个 相对 稳定 的 系列 决 
SES IN, 个 体 的 决策 策略 发 生 转 换 的 可 能 性 。 如 果 这 种 可 能 性 的 确 存 在 ， 那 么 
以 往 有 关 决 策 策略 的 研究 , 就 会 因为 忽视 这 一 可 能 性 而 导致 错误 的 结论 。 为 了 更 
好 地 探 明 个 体 在 面 对 各 种 决策 任务 时 的 决策 策略 ， 首 先 需 要 回答 的 问题 是 , 在 任 
务 环 境 和 要 求 相 对 稳定 的 系列 决策 中 , 是 否 的 确 会 发 生 策略 转换 。 本 文 将 以 爱 荷 
华 赌博 任务 这 一 典型 的 系列 决策 任务 为 例 ， 探 讨 这 一 重要 的 理论 和 实践 问题 。 

爱 荷 华 赌博 任务 (Iowa Gambling Task, IGT) 是 一 项 基于 经 验 的 模拟 决策 
任务 , 它 最 初 是 为 了 考察 腹 内 侧 前 额 叶 损伤 患者 在 应 对 不 确定 的 现实 情境 时 的 决 
策 缺 陷 而 提出 的 (Bechara et al.，1994) 。 该 任务 包含 四 个 牌 堆 (分 别 标记 为 
A, B, C, DO ， 被 试 需 要 多 次 在 这 些 牌 扒 间 做 出 选择 。 每 次 选择 某 一 牌 堆 之 后 ， 
都 会 抽取 并 翻转 其 最 上 方 的 一 张 牌 , 并 根据 牌 面 信息 给 予 被 试 一 定 的 奖励 。 但 是 ， 
有 时 选择 某 一 牌 堆 也 会 同时 给 被 试 带 来 损失 。 在 任务 开始 之 前 , 被 试 并 不 知道 每 
个 牌 堆 的 盔 亏 规律 以 及 总 试 次 数 , 而 他 们 的 目标 则 是 通过 他 们 的 选择 获得 尽 可 能 
高 的 总 回报 。 因 此 , 被 斌 需要 通过 不 断 选择 各 个 牌 堆 来 学 习 每 个 牌 堆 的 胡 亏 规律 ， 
并 采取 特定 策略 来 完成 这 一 任务 。 目 前 IGT 已 被 广泛 用 于 识别 各 种 临床 人 群 的 决 
策 缺 陷 ， 包 括 脑 损伤 人 群 (Hochman et al.，2010) 、 药 物 滥用 人 和 群 (Ahn et 
al., 2014; Bechara & Damasio, 2002; Bechara et al.，2001)、 神 经 疾病 人 


FF (Stout et al., 2001) Dike AGH CFE, 2019; 徐 四 华 ，2012) 
Age 
ats 


除了 被 用 于 考察 临床 人 群 的 决策 缺陷 ，IGT 还 被 用 来 探究 正常 和 临床 人 群 在 
面 对 不 确定 情境 时 的 决策 策略 。 为 此 , 研究 者 们 提出 了 对 应 不 同 集 略 的 一 系列 计 
算 认 知 模型 ， 这 些 模型 大 致 可 分 为 强化 学 习 模型 和 启发 式 模型 两 类 。 强化 学 习 模 
型 假设 IGT 包含 三 个 过 程 : 涉及 动机 的 对 每 次 选择 结果 的 评估 过 程 , 涉及 认 知 的 
对 牌 堆 期 望 效 价 的 更 新 过 程 ， 以 及 涉及 反应 的 概率 化 选择 过 程 。Busemeyer 和 
Stout (2002) 提出 了 第 一 个 针对 IGT 的 强化 学 习 模 型 一 一 期 望 效 价 学 习 
(Expectancy-Valence Learning, EVL) 模型 。 该 模型 假定 个 体 使 用 期 望 效 用 
(Expectancy Utility, EU) 函数 来 评估 每 次 选择 结果 的 效用 (Ahn et al., 
2008) ， 使 用 差异 学 习 (Delta-Learning, DEL) 规则 来 更 新 每 个 牌 堆 的 期 望 效 


fr (Rescorla & Wagner，1972) ， 并 使 用 依赖 于 试 次 的 选择 (Trial-Dependent 
Choice, TDC) 规则 来 指导 下 一 试 次 的 选择 〈Luce，1959) 。 在 EVL 模型 的 基础 
上 ，Ahn 等 人 (2008) 进一步 探索 了 强化 学 习 模 型 涉及 的 三 个 过 程 中 每 个 过 程 的 
不 同 数学 形式 ， 并 提出 了 预期 效 价 学 习 (Prospect-Valence Learning, PVL) 模 
型 。 该 模型 假定 个 体会 使 用 预期 效用 (Prospect Utility, PU) 函数 (Kahneman 
& Tversky，1979) 对 选择 的 净 结 果 〈 即 奖励 以 及 可 能 同时 出 现 的 损失 之 和 ) 进 
行 评估 ,使 用 Erev # Roth (1998) 提出 的 衰减 强化 学 习 (Decay-Reinforcement 
Learning, DRL) 规则 更 新 预期 效 价 ， 并 且 使 用 不 随 试 次 变化 的 选择 (Trial- 
Independent Choice, TIC) 规则 (Yechiam & Ert, 2007) 做 出 反应 。 更 为 近 
期 的 采用 系统 化 模型 比较 方法 的 研究 表明 (Dai et al.，2015) ， 个 体 在 对 结果 
进行 评估 时 , 更 有 可 能 会 对 同时 出 现 的 奖励 和 损失 首先 分 别 按照 预期 效用 函数 进 
行 评估 ， 然 后 再 将 评估 结果 加 以 整合 。 对 应 的 模型 被 称 为 第 2 类 预期 效 价 学 习 
(Prospect-Valence Learning 2, PVL2) 模型 。 

在 有 关 IGT 的 启发 式 模型 中 , 最 有 代表 性 且 拟 合 实证 数据 表现 最 好 的 是 赢 留 
输 走 (Win-Stay-Lose-Shift, WSLS) 模型 (Worthy et al.，2012) 。 该 模型 假 
设 ， 人 们 的 每 次 选择 仅 取 决 于 上 一 次 选择 的 牌 堆 以 及 所 得 的 结果 ,而 与 更 早 之 前 
的 选择 及 其 结果 无 关 。 因 此 , 相 比 于 考虑 之 前 所 有 试 次 的 选择 及 对 应 结果 的 强化 
学 习 模型 ，WSLS 模型 假设 的 心理 机 制 更 为 简单 。 有 具体 而 言 ， 该 模型 假定 个 体 继续 
选择 相同 牌 堆 的 概率 , 受 当前 选择 该 牌 堆 的 结果 而 定 。 如 果 当 前 选择 的 净 结 果 非 
负 《〈 即 赢 )》， 则 有 较 大 可 能 继续 选择 相同 牌 堆 ， 反 之 〈 即 输 ) ， 则 有 较 大 可 能 
一 试 次 转 而 选择 不 同 的 牌 堆 。 

尽管 关于 IGT 的 决策 策略 已 经 有 了 丰富 的 研究 成 果 , 但 很 少 有 研究 考虑 个 体 
在 完成 IGT 过 程 中 发 生 策 略 转 换 这 一 可 能 。Busemeyer 和 Stout (2002) 曾 提出 
过 一 个 策略 转换 启发 式 选 择 (Strategy-Switching Heuristic Choice) 模型 。 
但 是 ， 该 模型 所 谓 的 “策略 转换 ”， 并 非 是 指 决策 策略 的 本 质变 化 ， 而 是 指 随 着 
个 体 由 于 选择 不 利 牌 堆 ( 即 A 或 B 牌 堆 ) 遭受 越 来 越 多 的 损失 ， 其 选择 概率 在 不 
利 牌 堆 和 有 利 牌 堆 ( 即 C 或 D 牌 扒 ) 之 间 重 新 分 配 的 过 程 。 此 外 ， 也 有 研究 者 提 
出 了 将 强化 学 习 和 启发 式 策略 结合 在 一 起 的 计算 认 知 模型 。 例 如 ，Worthy 等 人 
(2013) 提出 了 效 价 附加 坚持 (Valence-Plus-Perseverance, VPP) 模型 。 该 模 
型 认为 , 在 IGT 的 每 一 个 试 次 中 ， 人 们 都 会 综合 考虑 各 个 牌 堆 的 期 望 效 价 以 及 前 
一 试 次 的 选择 及 其 结果 , 再 决定 当前 试 次 的 选择 。 昌 然 该 模型 同时 包含 强化 学 习 
和 启发 式 策略 成 分 ， 且 相 比 于 EVL, PVL 以 及 WSLS 模型 ， 该 模型 在 拟 合 实证 数据 
时 有 较 好 的 表现 , 但 它 仍 然 假定 个 体会 使 用 单一 的 , 虽然 更 为 复杂 的 混合 策略 来 
完成 IGT 中 每 个 试 次 的 选择 。 

综 上 所 述 , 有 关 IGT 的 决策 策略 研究 ， 尚未 考察 在 任务 过 程 中 发 生 策略 转换 
这 一 可 能 。 如 果 个 体 的 确 会 在 任务 过 程 中 因为 各 种 原因 转变 决策 策略 ,那么 以 往 
仅仅 比较 单一 策略 模型 的 研究 , 就 可 能 得 出 关于 个 体 策略 选择 的 错误 认识 。 此 外 ， 
那些 根据 单一 策略 模型 的 参数 估计 ,来 推断 不 同人 群 决 策 差 异 背 后 的 心理 机 制 的 
研究 (例如 ，Ahn et al., 2014; Yechiam et al.，2005)， 也 可 能 会 产生 有 偏 
的 估计 ,进而 导致 对 人 和 群 差 异 的 错误 解读 。 本 研究 将 通过 开发 允许 策略 转换 的 模 
型 并 将 其 与 传统 的 单一 策略 模型 进行 比较 , 来 回答 在 IGT 中 是 否 存在 策略 转换 这 
一 问题 , 以 期 为 得 出 有 关 IGT 中 的 决策 策略 以 及 不 同人 群 差异 的 更 为 可 信 的 结论 
提供 依据 , 也 为 在 更 大 范围 内 探讨 决策 策略 转换 这 一 重要 的 理论 和 实践 问题 提供 
借鉴 。 


2 研究 一 : IGT 策略 转换 模型 的 提出 和 检验 
2.1 方法 
2.1(1) IGT 简介 

如 上 所 述 ，IGT 包含 四 个 牌 堆 〈 分 别 标记 为 A、B、C、D) ， 在 每 个 试 次 中 被 
试 需要 选择 一 个 牌 堆 ， 并 根据 其 最 上 方 的 牌 呈现 的 信息 获得 一 定 的 奖励 ， 并 有 可 
能 同时 遭受 一 些 损失 。 被 试 的 目标 是 在 总 试 次 数 未 知 的 情况 下 , 使 总 回报 最 大 化 。 
例如 ， 在 Bechara 等 人 (1994) 最 早 的 IGT 研究 中 包含 了 (被 试 未 知 的 ) 100 个 
试 次 ， 并 且 采 用 了 如 表 1 所 示 的 支付 方案 。 具 体 而 言 ， 被 试 每 次 选择 A 或 B 牌 
堆 ， 都 会 获得 100 美元 的 收益 。 但 是 ， 每 选择 10 次 A 牌 堆 ， 被 试 都 会 遭受 5 次 
损失 ， 人 金额 从 小 到 大 分 别 为 150 美元 、200 美元 、250 美元 、300 美元 和 350 美 
元 ， 且 这 5 次 损失 在 每 10 次 选择 中 出 现 的 具体 位 置 都 会 有 所 变化 。 类 似 的 ， 被 
试 每 选择 10 次 B 牌 堆 ， 都 会 遭受 1 次 金额 为 1250 美元 的 损失 ， 且 每 10 次 选择 
中 出 现 损失 的 位 置 也 各 不 相同 。 对 于 C 或 者 D 牌 堆 ， 每 次 选择 都 会 带 来 50 美元 
的 收益 。 然 而 ， 每 选择 10 次 C 牌 堆 ， 都 会 遭受 5 次 总 额 为 250 美元 的 损失 ， 
选择 10 次 D RHE, 则 会 遭受 1 次 250 美元 的 损失 ,， 且 每 10 次 选择 C BK OD 牌 堆 遭 
受 损失 试 次 的 位 置 也 会 有 所 不 同 。 后 续 研 究 使 用 了 相同 或 者 类 似 的 任务 设置 , 主 
要 的 调整 发 生 在 斌 次数 ， 以 及 是 否 使 用 真实 回报 两 方面 。 当 使 用 真实 回报 ( 即 按 
照 被 试 最 后 的 总 回报 支付 酬金 ) 时 , 出 于 控制 实验 经 费 的 目的 , 一 般 会 将 Bechara 
等 人 最 初 的 支付 方案 中 的 各 种 结果 金额 都 缩减 100 fi (例如 ，Dai et al., 
2015) 。 无 论 采 取 何 种 支付 方案 ， 所 有 类 型 的 IGT 研究 都 满足 以 下 三 点 : 1) A 和 
B 牌 堆 每 次 选择 都 有 较 高 的 收益 ， 但 总 损失 也 较 大 ， 因 此 长 期 而 言 是 不 利 的 ， 即 
总 回报 为 负 ; 2) C 和 D 牌 堆 每 次 选择 的 收益 较 低 , 但 总 损失 较 小 ， 因 此 长 期 而 言 
是 有 利 的 ， 即 总 回报 为 正 ，3) A 和 C 牌 堆 相 比 于 B RU D 牌 堆 会 出 现 更 多 次 的 损 
失 。 


表 1 Bechara 等 人 (1994) 使 用 的 IGT 支付 方案 


牌 堆 A B C D 
每 次 选择 的 收益 100 100 50 50 
10 次 选择 出 现 i 5 1 
损失 的 次 数 
- 150 - 1250 - 25 - 250 
- 200 - 50 
可 能 损失 的 金额 - 250 -75 
- 300 
- 350 


10 次 选择 的 总 回报 - 250 - 250 250 250 


2.1(2) 单一 策略 模型 

为 了 给 探究 IGT 中 的 策略 转换 提供 合适 的 对 照 模 型 , 本 研究 考虑 了 已 有 文献 
中 的 三 大 类 单一 策略 模型 ， 即 强化 学 习 模 型 ， 局 发 式 模型 以 及 混合 模型 ， 并 以 
PVL2 模型 ，WSLS 模型 和 VPP 模型 作为 各 类 模型 的 代表 。 这 些 模型 在 以 往 的 研究 
中 都 有 较 好 的 表现 , 因此 如 果 新 的 允许 策略 转换 的 模型 能 够 比 它们 有 更 好 的 表现 ， 
则 能 为 IGT 中 存在 策略 转换 提供 支持 。 以 下 将 介绍 这 三 个 计算 认 知 模型 的 具体 数 
学 形式 。 

针对 IGT 的 强化 学 习 模 型 假定 人 们 通过 结果 评估 、 期 望 〈 或 预期 ) 效 价 更 新 
和 概率 化 选择 三 个 过 程 来 完成 该 任务 。 根 据 PVL2 模型 (Dai et al., 2015), A 
们 在 选择 某 一 牌 堆 之 后 , 会 针对 当前 选择 获得 的 收益 和 可 能 的 损失 ,使 用 预期 理 
论 的 价值 函数 分 别 进行 评估 , 然后 再 做 汇总 。 其 对 应 的 效用 函数 被 称 为 第 2 类 预 
期 效用 (Prospect Utility 2，PU2) 函数 ， 效 用 评估 的 具体 形式 如 下 : 

u(t) = [win(t)]* — y[|loss(t)|]* (1) 

其 中 , win(t) 和 loss(t) 分 别 代 表 在 试 次 t 获得 的 收益 及 可 能 同时 出 现 的 
损失 金额 ,u(t) REAR t 的 汇总 效用 评估 。a 是 形状 参数 ， 用 于 衡量 被 试 感 
受到 的 效用 对 于 客观 价值 的 敏感 性 ， 取 值 范 围 在 0 到 1 之 间 , y 则 代表 预期 理论 
中 的 损失 厌恶 参数 ， 取 值 范围 在 0 到 5 之 间 。 

在 完成 了 结果 评估 之 后 ， 根 据 PVL2 模型 ， 个 体会 使 用 衰减 强化 学 习 规则 对 
各 牌 堆 的 预期 效 价 进行 更 新 ， 有 具体 形式 如 下 : 

Ej(t) 2 A- Ej(t — 1) - 6,(t) -u(t) (2) 


AB. EU) PURI j EE t 个 试 次 完成 后 的 预期 效 价 = 1, 2, 3, 
4， 分 别 对 应 于 A，B，5C，D 四 个 牌 堆 ) ，4 是 记忆 衰减 参数 ， 取 值 范 围 是 0 到 
1, A 越 大 ,表示 记忆 有 豪 减 对 于 预期 效 价 的 影响 越 小 ，5 (9 是 一 个 哑 变 量 ， 当 被 


试 在 试 次 t 选择 了 牌 堆 j 时 为 1， 否则 为 0。 换 而 言 之 ， 被 选择 的 牌 堆 的 预期 
效 价 更 新 既 涉 及 记忆 衰减 ,又 涉及 当前 效用 评估 ， 而 未 选择 牌 堆 的 预期 效 价 更 新 
则 只 存在 记忆 衰减 过 程 。 
最 后 , PVL2 模型 假定 , 个 体会 依据 各 牌 堆 的 预期 效 价 , 使 用 以 下 函数 确定 下 
一 次 选择 各 牌 堆 的 概率 并 相应 地 做 出 随机 选择 (Sutton & Barto, 1998): 
e9(D-Ej(O 
Pr[D (t 十 1) =j] = OO (3) 
其 中 ， 等 式 左 侧 的 Pr[D(t + 1) =j] 表示 被 试 在 试 次 t+1 选择 牌 堆 j 的 
概率 ,而 等 式 右 侧 的 分 母 是 一 个 归 一 化 因子 , 可 以 确保 预测 的 各 有 牌 堆 的 选择 概率 
之 和 为 1. O) 是 选择 函数 的 灵敏 度 参 数 ，6(b 越 大 ， 表 明 被 试 的 选择 越 取 决 
于 牌 堆 的 预期 效 价 。 根 据 PVL2 模型 ， 6(t) 的 取 值 不 随 试 次 的 变化 而 变化 ， 即 
e(t) 是 t 的 常 函数 ， 其 形式 为 : 
Q(t) =0=3 -1 (4) 
Ku, c 是 自由 参数 ， 取 值 范围 为 0 到 5。c RK, 0 越 大 ， 代 表 被 试 更 有 
可 能 选择 预期 效 价 较 高 的 牌 堆 。 总 的 来 说 ，PVL2 模型 包含 了 效用 评估 、 预 期 效 价 
更 新 和 概率 化 选择 三 个 过 程 ， 一 共 包含 a y,A 和 c 四 个 自由 参数 。 
作为 启发 式 模型 的 代表 ，WSLS 模型 假定 的 决策 策略 比 PVL2 模型 假定 的 策略 
明显 更 为 简单 。 根 据 该 模型 ， 个 体 只 会 根据 上 一 次 选择 的 牌 堆 及 其 净 结 果 《〈 即 收 


益 和 损失 的 总 和 ) ， 来 概率 性 地 决定 下 一 次 的 选择 。 该 模型 有 两 个 参数 ， 第 一 个 
参数 代表 上 一 次 选择 的 牌 堆 得 到 的 净 结 果 大 于 等 于 0 时 , 个 体 继续 选择 该 牌 堆 的 
概率 ， 即 


Pr(stay | win) — Pr[D;(t) | choice. = D; &x(t-1)2 0] (5) 


其 中 choices = D; 表示 在 t 一 1 试 次 选择 了 j OE, x(t— 1) 2 0 表示 


该 选择 带 来 的 净 结 果 非 负 , 而 D;(t) 则 表示 在 t 试 次 继续 选择 三 牌 扒 。 该 模型 
的 第 二 个 参数 代表 上 一 次 选择 的 牌 堆 净 结果 为 负 时 , 被 试 转 而 选择 其 他 牌 堆 的 概 
率 ， 即 
Pr(shift | loss) = 1 — Pr[D;(t) | choice- = D; &x(t - 1) < 0] (6) 

其 中 符号 的 含义 与 公式 5 相同 。 该 模型 进一步 假定 ， 当 在 某 一 试 次 选择 不 同 
于 上 一 试 次 的 其 他 牌 堆 时 ， 所 有 可 能 牌 扒 的 选择 概率 相同 。 因 此 ， 为 了 保证 选择 
所 有 牌 扒 的 总 概率 为 1， 当 试 次 t 一 1 的 净 结 果 非 负 时 ， 在 试 次 t 选择 任意 一 
个 其 他 牌 堆 的 概率 为 二 eee lm， 当 试 次 上 一 工 的 净 结 果 为 负 时 ， 在 试 次 t 
继续 选择 相同 牌 堆 的 概率 为 1 一 Pr(shiftlloss)， 选 择 任 意 一 个 其 他 有 牌 堆 的 概率 
则 为 Pr(shift | loss) 
MAT s 


除了 强化 学 习 模 型 和 启发 式 模 型 , Worthy 等 人 (2013) 提出 的 混合 策略 VPP 
模型 也 有 很 好 的 表现 。Worthy 等 人 认为 ， 使 用 衰减 强化 规则 的 强化 学 习 模型 混 
淆 了 坚持 选择 同一 牌 堆 的 倾向 和 选择 预期 效 价 最 高 的 牌 堆 的 倾向 。 因此 , 他 们 分 
离 了 这 两 种 倾向 ， 并 提出 了 VPP 模型。 根据 该 模型 ,个体 一 方面 会 使 用 PU 函数 
来 对 某 次 选择 结果 进行 效用 评 佑 ， 并 使 用 差异 学 习 规 则 更 新 牌 堆 的 预期 效 价 ， 其 
具体 形式 如 下 : 


x(t)* M x(t) 20 
—A|x(t)|* 25 x(t) « 0 
E(t) = E; — 1) + A - 6;(t) - [u(t) — Ej(t — 1)] (8) 
KOA, x(t) 表示 当前 试 次 选择 结果 的 净 收 益 ， 其 他 符号 的 含义 同上 文 。 
另 一 方面 , 个 体 还 会 根据 之 前 试 次 是 否 选择 了 牌 堆 j 以 及 选择 牌 堆 j 所 得 
净 收 益 是 否 非 负 来 确定 当前 试 次 坚持 选择 牌 堆 j 的 倾向 ， 具 体形 式 如 下 : 
k*P(t—1)+eyos 4x(t) 2 0 
k*P(t-—1)+€neg 4 x(t) «0 


u(t) = | (7) 


其 中 P(t) 代表 在 试 次 t 坚持 选择 牌 堆 j 的 倾向 ，K 是 一 个 取 值 范围 在 0 


到 1 之 间 的 衰减 参数 ， 其 含义 类 似 于 公式 2 中 的 参数 A, epos H eneg 是 两 个 
自由 参数 ， 代 表 一 个 牌 堆 被 选择 后 ， 由 其 净 结果 决定 的 坚持 倾向 的 改变 量 , 范围 


都 在 - 1 到 1 之 间 。 最 终 ， 每 个 牌 堆 的 价值 态 (D， 即 综合 评价 ) 是 其 预期 效 价 
和 坚持 倾向 的 加 权 平 均 ， 具 体形 式 如 下 : 
Vj) = wg, EGE) + (1— we) CO (10) 


Heb. wg, 是 权重 参数 ， 取 值 范围 在 0 到 1 之 间 。 
最 后 ， 和 PVL2 模型 类 似 ，VPP 模型 假设 被 试 会 根据 牌 堆 的 价值 确定 下 一 次 
选择 各 牌 堆 的 概率 并 相应 地 做 出 随机 选择 ， 有 具体 规则 如 下 : 
e9 (D Vio) 


Priva --1) =j] = —— dá n 
r[ ( ) jl Yi e90 vk 


其 中 ， 灵 敏 度 参数 9(t) 的 计算 使 用 的 是 不 随 试 次 变化 的 规则 ， 即 公式 4。 
VPP 模型 共 包 含 八 个 自由 参数 , 即 涉及 效用 评估 和 更 新 的 a, A, A, 涉及 坚持 程度 
的 k, Eposs eneg， 以 及 涉及 综合 评价 的 ws， 和 涉及 选择 反应 的 co 


2.1(3) 策略 转换 模型 

由 于 IGT 一 般 包含 多 达 100 个 甚至 更 多 的 试 次 , 在 整个 任务 过 程 中 , 个 体 可 
能 由 于 各 种 原因 发 生 策略 转换 。 在 本 研究 中 ,我 们 假定 可 能 存在 两 种 转换 ， 一 种 
是 在 任务 开始 阶段 由 于 缺乏 信息 而 使 用 对 信息 依赖 度 较 低 的 启发 式 策略 , 并 在 对 
各 牌 堆 有 了 更 多 了 解 之 后 ， 转 而 使 用 更 为 复杂 更 为 精细 的 强化 学 习 策 略 。 另 一 种 
则 是 在 初始 阶段 就 使 用 强化 学 习 策 略 ， 并 随 着 任务 的 进行 ， 因 为 疫 劳 、 倦 合 或 者 
降低 认 知 负荷 的 需求 ， 转 而 采用 启发 式 策 略 。 从 建 模 角 度 ， 鉴 于 PVL 模型 在 强 
化 学 习 模型 ， 以 及 WSLS 模型 在 启发 式 模 型 中 的 优势 地 位 ， 本 研究 将 分 别 以 这 两 
个 模型 来 表达 可 能 的 强化 学 习 策 略 和 启发 式 策略 , 并 由 此 探讨 个 体 在 IGT PRE 
策略 转换 的 可 能 性 。 

有 具体 而 言 ， 我 们 开发 了 一 个 允许 发 生 一 次 策略 转换 (Switching-Strategy- 
Once, SSO) 的 模型 。 该 模型 假设 个 体 在 完成 IGT 的 过 程 中 ， 会 在 启发 式 策略 和 
强化 学 习 策 略 之 间 进 行 一 次 转换 ， 且 个 体 在 使 用 启发 式 或 者 强化 学 习 策 略 完成 
IGT 时 所 使 用 的 具体 计算 认 知 机 制 ， 和 对 应 的 WSLS 或 者 PVL2 模型 所 假定 的 机 制 
相同 。 除 了 WSLS 模型 和 PVL2 模型 涉及 的 参数 以 外 ， 该 模型 还 包含 两 个 新 的 参 
数 ， 分 别 代表 发 生 策 略 转换 的 节点 试 次 ， 记 作 sp ( 即 Switching Point) ， 以 及 
策略 转换 的 类 型 ， 记 作 st ( 即 Switching Type) 。st = 1 代表 个 体 在 完成 IGT 
的 过 程 中 先 使 用 了 强化 学 习 策 略 ， 之 后 转 而 使 用 启发 式 策略 ， 而 st = 2 则 代表 
相反 的 策略 转换 过 程 。 因 此 ， 该 模型 共有 8 个 参数 ， 即 涉及 强化 学 习 策 略 的 
a, y, 4 和 c, 涉 及 启发 式 策略 的 Pr(stay|win) 和 Pr(shift|loss), 转换 节点 参 
数 sp， 以 及 转换 类 型 参数 st。 由 于 当 策 略 转换 节点 位 于 整个 任务 的 开始 或 结尾 
阶段 时 ， 相 应 的 策略 转换 模型 和 对 应 的 单一 策略 模型 可 能 过 于 类 似 ， 难 以 分 辩 。 
因此 , 在 本 研究 中 , 我 们 将 sp 的 范围 限定 在 第 21 个 试 次 到 倒数 第 21 个 试 次 之 
间 。 


2.1(4) 数据 

为 了 系统 比较 策略 转换 模型 和 单一 策略 模型 拟 合 实证 数据 的 能 力 , 我 们 选取 
了 以 往 采 用 IGT 的 研究 中 具有 代表 性 的 一 系列 数据 集 作为 模型 拟 合 对 象 
(Steingroever et al., 2015). 。 有 具体 而 言 ， 这 些 数据 出 自 10 项 研究 ， 涵 盖 了 不 
同年 龄 范围 的 共 617 名 健康 被 试 ， 且 IGT 的 试 次 数 包含 95，100 和 150 三 种 情 
Di. 所 有 研究 中 的 ICT 都 在 计算 机 上 完成 , 且 支 付 方案 与 表 1 所 示 的 Bechara 等 
人 (1994) 所 用 的 方案 相同 或 类 似 。 所 涉及 的 各 项 研究 的 基本 信息 参见 
Steingroever 等 人 的 表 1. 


2.1(5) 模型 拟 合 和 比较 方法 

本 研究 所 考察 的 每 个 计算 认 知 模型 〈 即 WSLS，PVL2，VPP 和 SSO) ， 都 可 以 
根据 被 试 之 前 的 选择 以 及 所 得 结果 ， 预 测 下 一 试 次 每 个 牌 堆 被 选择 的 概率 〈 即 一 
步 向 前 预测 ，Ahn et al., 2008) 。 因 此 ， 我 们 首先 使 用 极 大 似 然 估 计 法 
(Maximum-Likelihood Estimation, MLE), ， 用 每 个 模型 去 拟 合 个 体 被 试 的 选择 数 
据 ， 即 找到 每 个 模型 下 ,可 以 使 得 实际 选择 数据 出 现 可 能 性 最 大 化 的 参数 取 值 组 
合 ， 并 以 相应 的 观测 数据 的 预测 出 现 概率 ， 作 为 模型 拟 合 表现 的 初步 指标 。 有 具体 
而 言 , 在 特定 模型 参数 取 值 下 的 似 然 值 被 定义 为 该 取 值 下 , 模型 预测 的 个 体 被 试 
的 选择 序列 的 发 生 概率 ， 而 对 数 似 然 值 (Log-Likelihood，LL) 则 被 定义 为 

n-1 4 


LL — 5 > In(Pr(Dj(¢+))) x 5€ 0 (12) 


t=1 j=1 


其 中 , n 表示 总 试 次 数 ，Pr (Dj(t + 1)) 表示 模型 基于 被 试 前 上 次 选择 及 其 


结果 ， 所 预测 的 第 t+ 1 试 次 选择 牌 堆 j 的 概率 。6j(t + 1) 是 一 个 旺 变 量 ， 如 


果 被 试 在 t1 试 次 选择 了 牌 堆 j, 则 5+1D=1， AM 5;(t 1) 2 0. X 


意味 着 , 每 个 试 次 只 有 实际 被 选择 的 牌 堆 的 预测 概率 会 被 纳入 对 数 似 然 值 的 计算 
之 中 。 然 后 ， 我 们 使 用 MATLAB 中 的 PSO 算法 (Particle Swarm Optimization, 
Clerc, 2010) 来 寻找 每 个 模型 对 数 似 然 值 的 最 大 值 , 并 求 得 对 应 的 参数 估计 值 。 
一 般 而 言 , 更 为 复杂 的 模型 会 有 更 好 的 拟 合 表现 。 由 于 上 述 模型 的 参数 个 数 
不 尽 相 同 ,， 它们 的 复杂 程度 也 不 尽 相 同 。 因 此 ， 我 们 使 用 包含 三 阶 偏差 修正 的 赤 
池 信 息 准 则 (Akaike Information Criterion with second-order bias 
correction, AIC; Akaike, 1974; Sugiura, 1978) 和 贝 叶 斯 信息 准则 
(Bayesian Information Criterion，BIC; Schwarz，1978) 这 两 种 常用 的 适用 
于 极 大 似 然 估计 的 指标 , 来 综合 考量 模型 的 拟 合 情况 和 复杂 程度 ,并 以 相应 的 准 
则 分 数 来 评价 每 个 模型 的 表现 并 进行 模型 选择 ， 有 具体 计算 方式 如 下 ; 
2k(k +1) (13) 
AIC; = 2LLy + 2k + 


BIC = —2LLy + k x In(n) (14) 


KF, k 代表 模型 的 自由 参数 个 数 ，7 为 需要 拟 合 的 数据 点 个 数 〈 即 总 试 次 
数 -1) ， 而 LL, 则 是 指 模型 的 极 大 对 数 似 然 值 。 AICe CEK BIC) 的 值 越 小 ， 表 
示 模 型 表现 越 好 (Broomell et al., 2011). " 


2. 1(6) 模型 复原 测试 
由 于 AIC 和 BIC 对 于 拟 合 表 现 所 做 的 调整 存在 程度 上 的 差异 ， 且 一 般 而 言 


BIC 的 惩罚 程度 ( 即 k*In(n)) 要 高 于 AICe 的 惩罚 程度 (HU 2k 4 79082) ， 所 


以 使 用 这 两 种 指标 可 能 会 导致 不 同 的 模型 选择 结果 。 因 此 , 我们 还 进行 了 模型 复 
原 测试 ， 以 便 确 定 哪 一 指标 更 适用 于 针对 观测 数据 进行 模型 选择 (Wagenmakers 
et al., 2004; Worthy et al.，2012) 。 有 具体 而 言 ， 该 测试 有 以 下 两 个 主要 步 
JR: 第 一 ， 针 对 每 个 模型 ， 使 用 拟 合 观测 数据 得 到 的 最 优 参数 取 值 产生 模拟 的 被 
试 数据 。 在 模拟 过 程 中 ， 不 会 使 用 到 被 试 实际 的 选择 及 其 结果 ， 而 是 根据 模型 预 
测 的 选择 概率 以 及 IGT 本 身 的 设 定 ,来 随机 地 产生 模拟 数据 ; 第 二 ， 用 不 同 模型 
拟 合 每 种 模型 产生 的 模拟 被 试 数据 ， 并 采用 特定 模型 选择 指标 来 比较 模型 表现 。 
如 果 使 用 某 种 模型 选择 指标 时 , 每 个 模型 都 只 针对 自身 产生 的 数据 有 相对 较 好 的 
表现 ， 那 么 说 明 该 选择 指标 下 ， 模 型 的 区 分 度 较 大 。 相 反 ， 如 果 使 用 某 种 模型 选 
择 指标 时 , 某 些 模型 针对 别 的 模型 产生 的 数据 也 会 有 相对 较 好 的 表现 ， 则 说 明 该 
选择 指标 下 ,模型 的 区 分 度 不 大 。 换 而 言 之 ， 这 样 的 选择 指标 不 能 较为 准确 地 确 
认 出 产生 数据 的 真实 模型 ， 因 此 也 就 不 适用 于 根据 观测 数据 进行 模型 选择 。 

在 本 研究 中 , 我 们 对 数据 集中 的 617 名 被 试 的 观测 数据 进行 了 模型 拟 合 ， 从 
而 得 到 了 每 个 被 试 在 每 个 模型 下 的 最 优 拟 合 参数 取 值 。 然 后 ， 对 于 每 个 模型 ， 我 
们 用 对 应 于 每 名 被 试 的 最 优 拟 合 参数 取 值 产生 3 组 模拟 数据 ， 共 产生 1821 
(=617X3) 组 模拟 的 被 试 数据 。 之 后 ， 我 们 分 别 使 用 WSLS 模型 、PVL2 模型 、 
VPP 模型 和 SS0 模型 ， 用 拟 合 观测 数据 一 样 的 方法 拟 合 这 些 模拟 数据 。 最 后 ， 通 
过 分 析 使 用 不 同 指标 CRI AIC. A BIC) 时 模型 的 区 分 度 ， 我 们 可 以 选取 出 更 为 合 
理 的 针对 观测 数据 的 模型 选择 指标 。 


2.2 结果 
2.200 模型 拟 合 和 比较 

表 2 展示 了 各 个 模型 拟 合 全 部 617 名 被 试 的 观测 数据 的 结果 。 当 以 AIC. 为 
模型 选择 指标 时 ， 无 论 是 就 群体 均值 还 是 个 体 结果 而 言 ，SS0 模型 都 表现 最 佳 ， 
而 VPP、PVL2 和 WSLS 模型 的 表现 则 依次 变 差 。 当 以 BIC 为 模型 选择 指标 时 ， 就 
群体 均值 而 言 ， PVL2 模型 的 表现 最 佳 ，SS0 模型 次 之 。 从 个 体 结果 上 看 ,WSLS 模 
型 和 PVL2 模型 表现 较 好 ， 分 别 在 30. 79% 和 33. 87% 的 被 试 数 据 上 有 最 好 的 表现 ， 
而 VPP 和 SSO 模型 的 表现 则 基本 相当 。 无 论 采 用 AIC. 还 是 BIC 作为 指标 ，SS0 模 
型 都 在 一 部 分 被 试 的 数据 (AIC.: 43.27%, BIC: 18.96%) 上 有 最 好 的 表现 。 

表 2 研究 一 模型 比较 结果 
模型 以 AIC. 为 指标 以 BIC 为 指标 


2 当 样 本 量 与 模型 参数 个 数 的 比值 较 小 〈 即 样本 量 /参数 个 数 <40) 时 ， 使 用 包含 二 阶 偏差 修正 的 赤 池 
信息 准则 (AICc) 能 够 弥补 使 用 AIC 可 能 导致 的 过 拟 合 缺陷 (Burnham & Anderson, 2004)。 因 此 ， 在 本 
文中 我 们 使 用 AICc 而 非 AIC 作为 模型 评估 的 一 个 指标 。 


该 模型 表现 最 该 模型 表现 最 
salt ARAN mith ai 

WSLS oo 42 (6. 81%) deem 190 (30. 799) 
PVL2 ae 114 (18. 48%) a 209 (33. 87%) 
VPP a 194 (31. 44%) o 101 (16. 37%) 
SS0 s 267 (43. 27%) aa 117 (18. 96%) 


2.2(2) 模型 复原 测试 
由 于 AICA BIC 对 于 模型 复杂 度 的 惩罚 程度 存在 差异 ， 相 比 于 BIC，AICe 倾 
向 于 选择 参数 更 多 的 模型 。 因 此 ， 出 现 使 用 AICc 指 标 时 ， 较 为 复杂 的 VPP 和 SSO 
模型 有 更 好 的 表现 并 不 奇怪 。 为 了 选择 更 合适 的 模型 选择 指标 , 我 们 进行 了 模型 
复原 测试 。 表 3 和 表 4 展示 了 模型 复原 测试 的 结果 。 当 以 AIC. 为 模型 选择 指标 
时 ,各 模型 有 较 好 的 区 分 度 。 对 于 每 个 模型 产生 的 模拟 被 试 数据 ， 该 模型 本 身 都 
能 在 最 大 比例 的 个 体 模 拟 数 据 上 有 最 好 的 表现 。 而 当 以 BIC 为 模型 选择 指标 时 ， 
对 于 每 个 模型 产生 的 模拟 数据 ， 最 为 简单 的 WSLS 模型 都 能 在 最 大 比例 的 个 体 模 
拟 数据 上 有 最 好 的 表现 , 即 BIC 不 能 很 好 地 对 WSLS 和 其 他 模型 进行 区 分 。 因 此 ， 
在 本 研究 中 ， 相 比 于 BIC， 将 AIC. 作 为 模型 选择 指标 更 为 合适 。 

表 3 研究 一 基于 AIC. 的 模型 复原 测试 结果 


* LAB 
"E 数据 拟 合 模型 
WSLS PVL2 VPP SSO 
WSLS 88. 60% 3. 67% 0. 92% 6. 81% 
PVL2 33. 55% 46. 14% 10. 97% 9. 35% 
VPP 14. 37% 16. 69% 59. 97% 8. 97% 
SSO 13. 99% 7. 73% 2. 76% 75. 53% 


TE: 表 中 的 每 一 行 代表 不 同 模型 在 某 个 模型 产生 的 模拟 被 试 数据 上 的 表现 情 
况 。 例 如 ， 第 一 行 代 表 各 个 模型 拟 合 WSLS 模型 产生 的 模拟 被 试 数据 时 的 表现 。 
在 由 WSLS 模型 产生 的 模拟 被 试 数 据 中 , WSLS 模型 在 88. 60% 的 个 体 数据 上 表现 最 
佳 ， 而 PVL2 模型 、VPP 模型 和 SSO 模型 则 分 别 在 3. 67%、0. 92% 和 6. 81% 的 个 体 
数据 上 表现 最 佳 。 

表 4 研究 一 基于 BIC 的 模型 复原 测试 结果 


m pem 
数据 产生 模型 数据 拟 合 模 型 
WSLS PVL2 VPP SSO 
WSLS 99. 57% 0. 43% 0. 00% 0. 00% 
PVL2 51. 43% 44. 79% 3. 62% 0. 16% 
VPP 3T. 39% 32. 63% 29. 07% 0. 92% 
SSO 42. 63% 20. 31% 0. 05% 37. 01% 


TE: 表 中 内 容 的 含义 同 表 3. 


2.3 讨论 

本 研究 提出 了 有 关 IGT 的 一 次 策略 转换 模型 , 并 针对 以 往 617 名 健康 被 试 的 
数据 ,比较 了 此 模型 和 假定 单一 策略 的 具有 代表 性 的 PVL2 模型 (强化 学 习 策 略 )， 
WSLS 模型 〈 启 发 式 策略 ) DAA VPP 模型 (混合 策略 ) 的 数据 拟 合 表现 。 当 分 别 以 
AIC. Fl BIC 作为 模型 选择 指标 时 ， 模 型 表现 的 相对 优 劣 有 所 差异 ， 但 策略 转换 模 
型 都 能 在 一 定 比例 的 个 体 数据 上 有 最 好 的 表现 。 模 型 复原 测试 的 结果 表明 ，AIC 
比 BIC 更 适合 在 当前 研究 中 被 用 于 进行 模型 选择 ， 因 为 相 比 于 使 用 BIC， 在 使 用 
AICc 时 更 可 能 还 原 出 正确 的 数据 产生 模型 。 当 以 AICc 作 为 模型 选择 指标 时 ，SS0 
模型 无 论 从 群体 还 是 个 体 水 平 都 要 优 于 另外 三 个 模型 , 而 且 策略 转换 模型 在 近 一 
Æ (43. 27%) 的 被 试 观测 数据 上 表现 最 佳 。 这 些 结果 表明 ， 个 体 在 完成 IGT 的 过 
程 中 ， 的 确 有 较 大 可 能 会 发 生 决策 策略 的 转换 。 

如 前 所 述 , 经 验 累 积 或 者 疲倦 等 因素 可 能 是 造成 在 像 IGT 这 样 的 系列 决策 任 
务 中 发 生 策 略 转换 的 原因 。 当 任务 的 试 次 数 变 得 越 来 越 多 时 ,我 们 可 以 合理 地 认 
为 ， 经 验 累 积 或 者 疲倦 这 样 的 因素 更 有 可 能 发 生 作 用 , 因而 个 体 也 就 更 有 可 能 在 
任务 过 程 中 ， 变 换 决策 策略 。 因 此 ， 作 为 本 研究 主体 部 分 的 补充 ， 我们 还 比较 了 
包含 不 同 试 次 数 的 IGT 研究 中 的 模型 表现 ， 以 便 进一步 考察 策略 转换 的 可 能 性 。 
在 本 研究 考察 的 617 名 被 斌 中， 有 15 人 完成 的 是 95 试 次 的 IGT, 504 人 完成 的 
是 100 斌 次 的 IGT, 还 有 98 人 完成 的 是 150 试 次 的 IGT. #5 展示 了 包含 不 同 试 
次 数 的 IGT 数据 以 AIC. 为 模型 选择 指标 的 相应 结果 。, 可 以 看 出 , 随 着 试 次 数 的 上 
Ft, 无 论 是 从 AICc 均 值 ， 还 是 从 模型 表现 最 好 的 被 试 比例 来 看 , 策略 转换 模型 相 
比 于 其 他 模型 的 优势 都 在 增强 , 这 一 点 在 模型 表现 最 好 的 个 体 被 试 比 例 上 表现 得 
尤为 明显 ， 即 从 13. 33% 上 升 到 了 53. 06%。 

表 5 研究 一 中 根据 试 次 数 分 组 的 模型 拟 合 和 比较 结果 


模型 AICc 均 值 (标准 差 ) 该 模型 表现 最 好 的 被 试 人 数 及 比例 
95 试 次 ”100 试 次 150 试 次 95 试 次 100 试 次 150 试 次 
238.66 224.42 296. 81 ， ， 

WSLS (35.45 (56.50 (111.01) 1 (6.67%) . 36 (7. 14%) 5 (5.109) 
223.90 . 215.21 211.19 : ， 15 

us (39.06) (58.10) (110.48) Ro x dL (15. 31%) 
222.84 210. 29 271. 84 : f 2 

VPP (40.43) (55.93) (108.07) 7 (49-679 161 (31.94%) — (55 53%) 
227.14 210.14 267. 10 : ; 52 

S80 (37,92) (57.76) (108.68) 2 (9.93999 213 (42.26%) (63 06%) 


为 了 更 加 深入 地 了 解 策略 转换 的 具体 情况 , 我 们 进一步 分 析 了 不 同 试 次 数 下 ， 
策略 转换 节点 〈 即 spo 的 分 布 状况 。 具 体 而 言 ， 针 对 各 种 试 次 数 的 IGT 任务 ， 
我 们 计算 了 SS0 模型 拟 合 得 最 好 的 个 体 数据 对 应 的 sp 参数 的 分 布 信息 。 当 总 试 
次 数 为 95 时 ,sp 估计 值 的 均值 为 48. 5, 标准 差 为 37. 48; 当 总 试 次 数 为 100 时 ， 
sp 估计 值 的 均值 为 48. 92， 标 准 差 为 19. 47， 而 当 总 试 次 数 为 150 时 ，sp 估计 
值 的 均值 为 81. 42， 标 准 差 为 36. 03。 不 难 发 现 ， 随 着 IGT 试 次 数 的 增多 ， 发 生 
策略 转换 的 平均 位 置 也 在 后 移 。 针 对 每 种 转换 类 型 ( 即 从 强化 学 习 策略 转化 为 启 
发 式 策略 ，st = 1， 或 者 从 启发 式 策略 转化 为 强化 学 习 策略 ，st = 2) ， 我 们 进 
一 步 使 用 单 侧 Mann-Whitney 检验 分 析 了 100 试 次 和 150 试 次 下 的 平均 转换 节点 
的 差异 〈 在 完成 95 试 次 IGT 的 被 试 中 ， 仅 有 2 人 的 数据 SSO 模型 拟 合 得 最 好 ， 
故此 处 不 做 分 析 ) 。 结 果 发 现 ,无 论 是 先 使 用 强化 学 习 策 略 ， 还 是 先 使 用 启发 式 


策略 的 被 试 ， 当 需要 完成 150 试 次 IGT 时 ， 相 应 的 平均 转换 节点 ， 均 显著 晚 于 只 
需 完成 100 试 次 IGT 时 的 平均 转换 节点 (p 值 均 小 于 0. 001) 。 之 所 以 会 出 现 这 
一 状况 ,可 能 是 由 于 随 着 IGT 试 次 数 的 增多 ， 有 更 高 比例 的 被 试 在 整个 任务 过 程 
中 发 生 了 策略 转换 ， 且 新 增 的 发 生 策略 转换 的 被 试 的 转换 节点 较 晚 。 这 为 个 体 在 
完成 IGT 过 程 中 有 可 能 发 生 策略 转换 ， 且 随 着 试 次 数 的 增多 ,被 试 会 有 更 大 的 可 
能 性 发 生 策略 转换 提供 了 进一步 的 证 据 。 

需要 指出 的 是 ， 虽 然 上 述 分 析 支 持 IGT 中 可 能 存在 策略 转换 , 但 这 些 分 析 所 
考察 的 数据 出 自 不 同 的 研究 , 在 任务 设置 的 细节 上 不 尽 相 同 , 而 且 试 次 数 的 范围 
和 间距 不 尽 合理 ， 完 成 不 同 试 次 数 IGT 的 人 数 也 很 不 均衡 。 因此 ， 以 上 分 析 结 果 
只 能 被 认为 是 为 支持 IGT 中 的 策略 转换 提供 了 有 限 的 证 据 。 在 以 下 报告 的 研究 二 
F, 我 们 在 对 试 次 数 进行 更 为 合理 的 操纵 的 前 提 下 , 采用 相同 的 任务 设置 在 每 种 
试 次 数 下 收集 了 人 数 几 乎 相同 的 被 试 数据 , 以 便 更 好 地 检验 试 次 数 增加 会 提升 策 
略 转换 的 可 能 性 这 一 关键 假设 。 


3 研究 二 : 试 次 数 对 IGT 中 策略 转换 可 能 性 的 影响 
3.1 方法 
3.1(1) 被 试 

本 研究 采用 实验 范式 操纵 IGT 的 斌 次数， 并 设置 了 100 试 次 和 200 试 次 两 
个 实验 条 件 。 共 招募 321 名 成 年 大 学 生 被 试 〈 男 性 134 人 ， 女 性 187 人 ) ， 平 
均 年 龄 20.54 岁 CSD-2.41) 。 其 中 160 人 完成 了 100 试 次 的 IGT， 另 161 人 则 
完成 了 200 试 次 的 IGT。 招 募 被 试 时 要 求 非 心理 学 专业 且 未 参加 过 IGT 研究 。 
所 有 被 试 均 在 实验 前 填写 知情 同意 书 ， 并 自愿 参与 实验 。 实 验 结束 后 ， 被 试 会 
得 到 基础 报酬 和 额外 奖励 ， 额 外 奖励 的 数量 和 IGT 的 绩效 有 关 ， 绩 效 越 高 ， 额 
外 奖励 越 多 。 


3.1(2) 实验 设计 与 流程 

本 实验 采用 单 因素 被 试 间 设 计 , 考察 并 比较 不 同 试 次 数 下 个 体 在 IGT 中 发 生 
策略 转换 的 可 能 性 。 本 实验 共 设 置 100 试 次 和 200 试 次 两 种 实验 条 件 , 前 者 是 大 
多 数 IGT 研究 的 标准 设置 ,而 后 者 则 可 以 在 控制 实验 总 时 长 的 前 提 下 ， 有 效 地 拉 
开 与 前 者 的 距离 ， 以 实现 一 定 程度 的 效应 量 。 

任务 开始 前 ， 被 试 会 阅读 有 关 IGT 的 标准 化 介绍 ， 并 被 告知 拥有 2000 元 研 
完 货币 〈“ 即 初始 总 财富 ) 。 任 务 开始 后 ， 被 试 会 看 到 分 别 位 于 屏幕 上 、 下 、 左 、 
右 侧 的 四 个 牌 堆 ， 并 可 以 通过 键盘 的 “上 ”、“ 下 ”、“ 左 ”、“ 右 ” 键 ， 选 择 
对 应 的 牌 堆 。 被 试 在 完成 任务 之 前 ， 并 不 知晓 所 需 完成 的 试 次 数 。 每 次 选择 完成 
后 , 屏幕 中 央 将 呈现 当前 试 次 的 奖励 和 损失 , 以 及 更 新 之 后 的 总 财富 额 ( 如 图 1) 
设置 以 上 下 左右 方式 呈现 牌 堆 , 是 为 了 减少 传统 的 从 左 到 右 的 排 布 方式 对 牌 堆 选 
择 产生 的 非 随机 的 影响 ， 例 如 在 开始 阶段 依次 选择 A、B、C、D 四 个 牌 堆 ， 以 及 
在 后 续 试 次 中 ， 相 继 选 择 空 间 上 明显 相 邻 的 牌 扒 。 此 外 ， 本 研究 采用 和 表 1 所 示 
相同 的 支付 方案 ， 且 每 10 次 选择 茶 一 牌 堆 时 损失 出 现 的 试 次 位 置 也 是 随机 的 。 


3 我 们 也 使 用 单 侧 Mann-Whitney 检验 考察 了 不 同 转换 类 型 下 的 转换 节点 差异 ， 发 现 仅 在 100 试 次 条 
件 下 两 种 转换 类 型 间 存 在 显著 差异 。 在 后 续 的 研究 2 中 ， 无 论 是 100 试 次 IGT 还 是 200 试 次 IGT， 平 均 转 
换 节 点 在 不 同 转换 类 型 间 都 不 存在 显著 的 差异 。 


实验 程序 使 用 Python3 及 PsychoPy 软件 编写 , 被 试 需要 在 电脑 的 PsychoPy 软件 
上 完成 实验 。 
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图 1 研究 二 实验 界面 截图 


3.1(3) 数据 分 析 

本 研究 采用 和 研究 一 相同 的 模型 拟 合 和 比较 技术 , 分 析 和 比较 了 3 个 单一 策 
略 模型 和 一 次 策略 转换 模型 在 拟 合 个体 IGT 数据 时 的 表现 , 并 且 进 行 了 模型 复原 
测试 。 此 外 ， 使 用 独立 样本 比例 差异 Z 检验 ， 分 析 试 次 数 对 于 IGT 中 发 生 策 略 转 
换 的 可 能 性 的 影响 。 


3.2 结 
3.2(1) 模型 分 析 和 比较 

因 模 型 复原 测试 表明 ， 在 本 研究 中 使 用 ATC. 仍然 比 使 用 BIC 更 有 可 能 做 出 
正确 的 模型 选择 〈 见 下 文 ) ， 此 处 仅 报告 基于 AICe 的 结果 。 表 6 呈现 了 以 AIC. 为 
标准 ，100 和 200 试 次 组 各 自 的 模型 比较 结果 。 无 论 是 从 群体 均值 ， 还 是 从 个 体 
结果 来 看 ，SS0 模型 在 两 种 试 次 数 条 件 下 都 表现 最 佳 。 而 且 ， 无论 是 针对 100 试 
次 IGT 还 是 200 试 次 IGT, SSO 模型 都 在 至 少 一 半 被 试 的 个 体 数据 上 有 最 好 的 表 
现 。 此 外 ， 和 研究 一 一 样 ，VPP、PVL2 和 WSLS 模型 的 表现 依次 变 差 。 独 立 样本 比 
例 差 异 2 检验 的 结果 表明 ，200 试 次 下 发 生 策略 转换 的 可 能 性 〈 即 SSO 模型 在 拟 
合 个 体 观 测 数据 时 表现 最 佳 的 比例 ，65. 22%) ， 高 于 100 试 次 下 发 生 策略 转换 的 
可 能 性 (50. 00%, 2-2. 76， 单 侧 p=0. 003， 比 例 差异 的 95% CI = [0.045, 0.259], 
Cohen’ s A= 0.31， 对 应 较 小 的 效应 量 ) 。 

表 6 研究 二 模型 比较 结果 

ATCA CHRD 各 模型 表现 最 好 的 被 试 人 数 及 比 


Ne 


模型 例 

100 试 次 200 试 次 100 试 次 200 试 次 
WSLS 221.29 (54.27) 413.04 (125.04) 17 (10. 63%) 4 (2.48 %) 
PVL2 214.36 (56.19) 392.14 (123.53) 27 (16.88%) 15 (9.329) 
VPP 212.66 (52.58) 383.47 (120.92) 36 (22.509) 37 (22.989) 


SSO | 207.95 (54.46) 377.02 (120.76) 80 (50.009) 105 (65. 22%) 


和 在 研究 一 中 一 样 ， 我 们 还 分 析 了 两 种 试 次 数 条 件 下 ，SS0 模型 拟 合 最 优 的 
那些 被 试 的 sp 参数 的 估计 结果 。 当 IGT 包含 100 试 次 时 ，sp 估计 值 的 均值 为 
47. 03， 标 准 差 为 20. 39; 当 IGT 包含 200 试 次 时 ，sp 估计 值 的 均值 为 95. 38, 
标准 差 为 54. 21。 单 侧 Mann-Whitney 检验 结果 表明 ， 无 论 在 哪 种 转换 类 型 下 ， 
200 试 次 下 的 平均 转换 节点 均 显 著 晚 于 100 试 次 下 的 平均 转换 节点 (p 值 均 小 于 
0.001) 。 


3.2(2) 模型 复原 测试 

本 研究 使 用 每 个 模型 模拟 了 3X321=963 组 个 体 被 试 数 据 ， 并 使 用 4 个 模型 
对 每 组 模拟 数据 进行 了 拟 合 。 表 7 展示 了 100 试 次 组 和 200 试 次 组 基于 AIC. 的 
模型 复原 测试 结果 。 不 论 是 在 100 试 次 还 是 200 试 次 下 ， 所 考察 的 每 个 模型 都 能 
在 最 大 比例 的 各 自 模 型 产生 的 模拟 数据 上 有 最 好 的 表现 。 总 体 而 言 ， 试 次 数 为 
200 时 数据 生成 模型 被 正确 复原 的 比例 (71. 7480. ， 要 高 于 试 次 数 为 100 时 的 比 
例 (64. 69%, z= 4.70， 单 侧 p< 0. 001， 比 例 差异 的 95% CI = [0.041, 0.100], 
Cohen’ s A= 0.15， 对 应 小 的 效应 量 ) 。 

表 7 研究 二 基于 AIC. 的 模型 复原 测试 结果 


WSLS PVL2 VPP SSO 
WSLS 90. 83%/86. 13% 2. 29%/3. 11% 1. 04%/0. 83% 5. 83%/9. 94% 
PVL2 38. 54%/27. 33% 44. 17%/53. 21% 3. 13%/5. 18% 14. 17%/14. 29% 
VPP 23. 75%/13. 66% 17. 29%/12. 63% 46. 46%/63. 77% 12. 50%/9. 94% 
SSO 15. 21%/10. 14% 5. 21%/4. 35% 2. 29%/1. 66% 77. 29%/83. 85% 


ik: 每 个 单元 格 中 的 前 一 个 数值 代表 100 试 次 组 的 结果 ， 后 一 个 数值 代表 
200 试 次 组 的 结果 。 

表 8 展示 了 基于 BIC 的 模型 复原 测试 结果 。 可 以 看 出 ， 和 研究 一 一 样 ， 当 使 
用 BIC 进行 模型 选择 时 ， 几 乎 在 所 有 情况 下 , 无 论 针 对 哪个 模型 产生 的 个 体 模拟 
数据 ，WSLS 模型 都 能 有 最 好 的 表现 ， 即 BIC 不 能 很 好 地 对 WSLS 和 其 他 模型 进行 
区 分 。 只 有 当 试 次 数 为 200 时 ，PVL2 模型 和 SSO 模型 才能 在 各 自 产 生 的 模拟 数 
据 上 有 最 好 的 表现 。 总 体 而 言 ， 试 次 数 为 200 时 数据 生成 模型 被 正确 复原 的 比例 
(59. 06%) , 要 高 于 试 次 数 为 100 时 的 比例 (49. 17%, z = 6. 16， 单 侧 p < 0.001, 
比例 差异 的 95% CI = [0.068，0.130]，Cohen”s A = 0.20， 对 应 小 的 效应 


HO. 


表 8 研究 二 基于 BIC 的 模型 复原 测试 结果 
WSLS PVL2 VPP SSO 


WSLS 100. 00%/100. 00% — 0. 00%/0. 00% 0. 00%/0. 00% 0. 00%/0. 00% 
PVL2 59. 58%/46. 38% 39. 79%/53. 42% 0. 00%/0. 00% 0. 63%/0. 21% 


“在 本 研究 以 及 研究 1 中 ，SSO 模型 拟 合 最 优 的 被 试 的 sp FSI (Are AL AGRRIIE T YEBI H. 
造成 这 一 结果 的 可 能 原因 是 ， 发 生 策略 转换 的 个 体 的 策略 转换 节点 位 于 模型 多 许 范围 内 的 各 个 位 置 的 可 能 
性 大 致 相 当 ， 且 整体 分 布 呈 单 峰 形态 。 


VPP 48. 5456/35. 20% 27. 50%/34. 16% 23. 335/29. 81% 0. 6396/0. 83% 
SSO 47. 71%/32. 30% 18. 13%/14. 70% 0. 63%/0. 00% 33. 54%/53. 00% 
TE: 表 中 内 容 的 含义 同 表 7。 


3.3 讨论 

本 研究 的 目的 在 于 考察 试 次 数 的 增加 是 否 会 导致 被 试 在 IGT 中 更 有 可 能 发 
生 策 略 转换 。 结 果 表 明 ， 无 论 IGT 包含 标准 的 100 个 试 次 还 是 更 多 的 200 个 试 
次 , 和 研究 一 一 样 , 策略 转换 模型 都 在 至 少 一 半 被 试 的 个 体 数 据 上 有 最 好 的 表现 。 
更 为 重要 的 是 ， 同 包含 100 个 试 次 的 IGT 相 比 ， 当 IGT 包含 200 个 试 次 时 ， 策略 
转换 模型 在 更 高 比例 的 个 体 数据 上 表现 最 佳 。 这 意味 着 ， 当 试 次 数 为 200 时 ， 人 
们 更 有 可 能 在 IGT 中 发 生 策略 转换 。 这 一 结果 排除 了 策略 转换 模型 能 够 在 部 分 被 
试 的 数据 上 有 最 好 的 表现 , 仅仅 是 由 模型 比较 结果 的 随机 性 所 致 这 一 解释 ， 从 而 
为 个 体 在 像 IGT 这 样 的 系列 决策 任务 中 可 能 发 生 策 略 转换 提供 了 进一步 的 支持 。 
此 外 ,模型 复原 测试 的 结果 表明 ， 与 BIC 相 比 ，AIC. 仍 然 是 更 有 可 能 做 出 正确 的 
模型 选择 的 指标 。 因此 , 本 研究 继续 使 用 AIC. 作 为 模型 选择 和 策略 推断 的 依据 。 
最 后 ， 无 论 是 采用 AIC 还 是 BIC 作为 模型 选择 指标 ，200 试 次 下 的 模型 复原 表 
现 ， 都 要 优 于 100 试 次 下 的 表现 。 这 与 更 大 的 数据 量 将 有 助 于 更 好 地 区 分 不 同 模 
型 的 传统 看 法 是 一 致 的 。 


4 总 讨论 


系列 决策 任务 既 广 泛 存 在 于 我 们 的 日 常生 活 中 , 也 大 量 出 现在 有 关 决 策 策略 
和 影响 因素 的 实证 研究 之 中 。 例如 ,为 了 招聘 各 种 岗位 的 职员 ， 人 力 资 源 部 门 的 
员工 需要 频繁 地 在 求职 者 间 做 出 选择 , 而 像 IGT 这 样 的 需要 被 试 在 相同 的 任务 结 
构 下 重复 完成 多 次 决策 的 实验 室 任务 也 比比 错 是 。 以往 有 关系 列 决策 任务 下 的 决 
策 策 略 的 研究 , 一 般 假设 个 体 在 所 有 试 次 中 都 使 用 相同 的 策略 。 之 所 以 要 求 进行 
多 次 重复 决策 , 仅仅 是 为 了 给 推断 决策 策略 提供 更 多 的 信息 。 但是， 在 这 样 的 决 
策 任务 中 ， 人 们 不 仅 会 了 解 和 学 习 任 务 刺激 的 具体 特征 , 而 且 可 能 在 更 高 的 水 平 
上 ， 学 习 和 相应 地 调整 他 们 的 决策 策略 。 对 于 后 一 种 学 习 的 充分 了 解 ， 将 有 助 于 
我 们 得 出 有 关 策 略 选 择 的 更 为 准确 的 推断 , 并 且 考 察 影响 集 略 选择 及 其 转换 的 因 
素 ， 从 而 更 好 地 为 改善 决策 服务 。 

本 研究 以 IGT 为 对 象 , 较为 系统 地 探讨 了 人 们 在 系列 决策 任务 中 发 生 策略 转 
换 的 可 能 性 。 结 果 表 明 ， 人 们 不 仅 会 在 IGT 中 发 生 策略 转换 ,而 且 这 一 转换 的 可 
能 性 ， 还 会 随 着 任务 试 次 数 的 上 升 而 有 所 提升 。 这 表明 ， 在 通过 各 种 系列 决策 任 
务 探讨 个 体 的 决策 策略 时 ， 需 要 充分 考虑 策略 转换 的 可 能 性 , 尤其 是 在 任务 试 次 
数 较 多 的 情况 下 。 有 具体 而 言 ， 可 以 参照 本 文 所 报告 的 方式 ， 开 发 允许 策略 转换 的 
计算 认 知 模型 ， 并 将 它们 和 假定 单一 策略 的 模型 进行 比较 ， 从 而 推断 个 体 是 否 发 
生 了 策略 转换 ， 以 及 在 何 时 发 生 了 策略 转换 。 由 此 ， 研 究 才 有望 对 个 体 在 任务 不 
同 阶段 的 策略 使 用 情况 有 更 加 准确 的 认识 , 后 续 基 于 不 同 阶段 的 模型 参数 估计 的 
分 析 ， 也 更 有 可 能 产生 相对 准确 的 推断 。 

尽管 本 文 报告 的 研究 提供 了 有 关 个 体 在 IGT 中 可 能 发 生 策略 转换 的 明确 证 
据 ， 但 这 些 研究 所 考虑 的 策略 转换 ， 仅 是 可 能 的 多 种 策略 转换 类 型 中 的 一 部 分 。 
具体 而 言 , 我们 假定 在 整个 任务 过 程 中 , 个 体 只 可 能 发 生 一 次 在 强化 学 习 策 略 和 


局 发 式 策略 之 间 的 转换 ， 而 且 这 种 转换 是 以 突变 方式 进行 的 。 同 样 有 可 能 出 现 的 
情况 是 , 个 体 在 任务 过 程 中 发 生 了 多 次 策略 转换 ,或 者 策略 转换 是 以 渐进 的 方式 
发 生 的 ,， 即 在 相继 的 试 次 中 ,从 主要 采取 强化 学 习 策 略 向 主要 使 用 启发 式 策略 过 
渡 , 或 者 反 向 而 行 。 从 建 模 的 角度 ， 前 一 种 可 能 性 需要 引入 多 个 转换 节点 ， 而 后 
一 种 则 需要 借助 像 VPP 模型 这 样 的 混合 模型 , 并 假设 其 中 有 关 不 同 集 略 的 加 权 系 


Jk CHI we) 是 试 次 的 渐变 函数 。 就 分 析 技 术 而 言 ， 实 现 这 样 的 模型 都 更 有 挑战 


PE, 但 是 并 非 完 全 没有 可 能 。 例如 ,针对 多 属性 系列 决策 任务 , Lee 等 人 (2019, 
2021) 采用 贝 叶 斯 方法 探索 了 人 允许 发 生 多 次 策略 转换 的 模型 , 发 现 有 部 分 被 试 的 
数据 能 够 被 策略 转换 模型 更 好 地 解释 , 且 有 少量 被 试 的 数据 支持 存在 多 次 策略 转 
换 。 未 来 的 研究 可 以 参考 Lee 等 人 的 方式 ， 探 讨 IGT 或 者 其 他 重要 的 决策 任务 
(例如 风险 和 跨 期 选择 任务 ) 下 发 生 多 次 策略 转换 的 可 能 性 , 还 可 以 开发 策略 渐 
变 模型 ， 并 将 此 类 模型 和 ( 单 次 或 多 次 ) 突变 模型 进行 比较 ， 从 而 加 深 对 于 策略 
转换 的 多 种 可 能 性 的 认识 。 除 了 最 终 的 选择 , 与 任务 有 关 的 其 他 数据 也 可 能 反映 
了 人 们 的 决策 过 程 ， 例 如 决策 反应 时 和 了 眼 动 数据 等 。Fang 等 人 (2023) FEF B 
标 追 踪 技 术 获 取 的 数据 ， 提 出 了 用 于 多 属性 决策 任务 的 机 器 学 习 策 略 识别 
(Machine Learning Strategy Identification, MLSI) 方法 。 这 种 通过 使 用 机 
器 学 习 算 法 提取 决策 特征 并 进而 甄别 诀 策 策略 的 研究 方法 十 分 新 颖 , 未 来 可 以 在 
有 关 策 略 转换 的 研究 中 进一步 推广 使 用 。 需 要 指出 的 是 ， 就 核心 决策 策略 而 言 ， 
针对 多 属性 决策 的 模型 (例如 ，Take-the-Best 模型 ) 一 般 都 是 确定 性 模型 ， 而 
针对 IGT 的 模型 则 一 般 是 概率 性 模型 ,因此 后 者 在 数据 分 析 层 面 更 为 复杂 。 此 外 ， 
IGT 和 多 属性 决策 任务 存在 一 些 重 要 的 区 别 。 例 如 ， 前 者 的 每 次 决策 都 有 明确 的 
反馈 ， 且 所 做 的 选择 和 相应 结果 会 对 后 续 诀 策 产 生 影响 , 因此 更 多 涉及 记忆 和 经 
验 累 积 因素 ， 而 后 者 的 每 次 决策 则 是 相对 独立 的 ， 且 一 般 不 包含 反馈 信息 ， 因 而 
无 需 记 忆 和 经 验 的 参与 ,此 外 ,多 属性 决策 任务 一 般 是 在 确定 信息 条 件 下 完成 的 ， 
而 IGT 则 涉及 更 为 复杂 的 不 确定 信息 。 因 此, 来 自 多 属性 决策 任务 和 IGT 的 策略 
转换 证 据 属 于 不 同类 型 任务 下 的 汇聚 证 据 。 这 些 证 据 表 明 , 策略 转换 可 能 存在 于 
性 质 不 同 的 各 种 系列 决策 任务 之 中 。 

在 确认 了 系列 决策 任务 存在 策略 转换 的 可 能 性 后 , 一 个 需要 进一步 探讨 的 关 
键 问题 是 ， 产生 策略 转换 的 条 件 是 什么 , 或 者 说 怎样 的 任务 因素 、 个 体 因素 或 者 
两 者 的 交互 可 能 引发 策略 转换 。 例 如 ， 当 任务 难度 或 者 自身 的 抱负 水 平 较 高 时 ， 
个 体 可 能 因为 现 有 筑 略 无 法 实现 目标 ， 而 选择 尝试 不 同 的 策略 。 由 此 可 以 推断 ， 
通过 增 大 任务 难度 (比如 要 求 在 IGT 中 必须 使 得 财富 水 平 有 所 增长 ) 或 者 提升 个 
体 的 抱负 水 平 的 方式 ， 也 许 能 够 引发 更 多 的 集 略 转 换 。 此 外 ， 是 否 存 在 优势 策略 
也 是 影响 策略 转换 的 一 个 可 能 因素 。 当 个 体 在 尝试 了 不 同 策略 并 且 发 现 了 优势 策 
略 之 后 ， 其 策略 转换 的 倾 癌 可 能 会 有 所 减弱 。 反 之 ， 如 果 多 种 策略 下 的 任务 表现 
大 致 相当 , 那么 发 生 策 略 转换 的 可 能 性 则 将 取决 于 个 体 希 望 尽 可 能 有 更 好 的 表现 
的 意愿 ， 以 及 探索 不 同 策略 的 动机 程度 。 对 于 策略 转换 诱发 因素 的 考察 ， 将 进 一 
步 提升 我 们 对 于 决策 策略 及 其 转换 的 认识 。 
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